This paper proposes a hardware-efficient architecture, Linearized Convolution Network (LiCo-Net) for keyword spotting. It is optimized specifically for low-power processor units like microcontrollers. ML operators exhibit heterogeneous efficiency profiles on power-efficient hardware. Given the exact theoretical computation cost, int8 operators are more computation-effective than float operators, and linear layers are often more efficient than other layers. The proposed LiCo-Net is a dual-phase system that uses the efficient int8 linear operators at the inference phase and applies streaming convolutions at the training phase to maintain a high model capacity. The experimental results show that LiCo-Net outperforms single-value decomposition filter (SVDF) on hardware efficiency with on-par detection performance. Compared to SVDF, LiCo-Net reduces cycles by 40% on HiFi4 DSP.
translated by 谷歌翻译
数字病理学在医疗领域的人工智能发展中起着至关重要的作用。数字病理平台可以使病态资源数字和网络,并实现视觉数据的永久存储和同步浏览处理,而不限制时间和空间。它已广泛用于各种病理领域。然而,仍然缺乏开放式和通用的数字病理平台,可以帮助医生在数字病理部分的管理和分析中,以及相关患者信息的管理和结构化描述。大多数平台无法集成图像查看,注释和分析以及文本信息管理。为了解决上述问题,我们提出了一个全面而可扩展的平台PIMIP。我们的PIMIP基于数字病理部分的可视化开发了图像注释功能。我们的注释功能支持多用户协作注释和多设备注释,并实现某些注释任务的自动化。在注释任务中,我们邀请了一个专业的病理学家进行了指导。我们介绍了一种用于图像分析的机器学习模块。我们收集的数据包括来自当地医院和临床示例的公共数据。我们的平台更临床,适合临床使用。除了图像数据外,还构建了文本信息的管理和显示。所以我们的平台是全面的。平台框架是以模块化的方式构建的,以支持用户独立添加机器学习模块,这使我们的平台可扩展。
translated by 谷歌翻译
从可穿戴设备到功能强大的智能设备,现代自动语音识别(ASR)型号在各种具有不同计算预算的边缘设备上运行。为了浏览模型准确性与模型大小的帕累托前线,研究人员陷入了通过为每个单独的边缘设备进行训练和微调模型来优化模型精度的困境,同时保持训练GPU小时可拖动。在本文中,我们提出了Omni-Sparsity DNN,其中可以修剪单个神经网络以生成针对各种模型大小的优化模型。我们为Omni-Sparsity DNN制定了培训策略,使其可以在Word-Error-rate(WER)vs模型大小的帕累托(Pareto)沿线找到模​​型,同时使培训GPU小时不超过训练一个单数模型的模型。我们使用流e2e ASR模型演示了Omni-Sparsity DNN。与单独修剪的稀疏型号相比,我们的结果在LibrisPeech上具有相似或更高准确性的培训时间和资源节省了大量节省:在测试中差2%-6.6%。
translated by 谷歌翻译
点云完成旨在从部分点云中恢复原始形状信息,引起了人们对3D Vision社区的关注。现有方法通常成功完成标准形状,同时未能生成某些非标准形状的点云的本地细节。为了获得理想的当地细节,全球形状信息的指导至关重要。在这项工作中,我们设计了一种有效的方法来借助类内部形状的原型表示区分标准/非标准形状,可以通过建议的监督形状聚类借口任务来计算,从而导致异构组件W.R.T完成网络。代表性的原型(定义为形状类别的特征质心)可以提供全局形状的指导,该指南被称为软性知识,以多尺度方式通过所需的选择性感知特征融合模块注入下游完成网络。此外,要进行有效的培训,我们考虑了基于困难的采样策略,以鼓励网络更多地关注一些部分点云,而几何信息较少。实验结果表明,我们的方法表现优于其他最新方法,并且具有完成复杂几何形状的强大能力。
translated by 谷歌翻译
越来越有兴趣将流和全文自动语音识别(ASR)网络统一到单个端到端ASR模型中,以简化两种用例的模型培训和部署。在现实世界中的ASR应用程序中,流媒体ASR模型通常在更多的存储和计算约束(例如,在嵌入式设备上)进行操作,而不是任何服务器端的全文模型。由Omni-Sparsity Supernet训练的最新进展激发,该训练在一个单个模型中共同优化了多个子网,该工作旨在共同学习紧凑的稀疏稀疏式磁性流媒体流动ASR模型,以及一个大型密度服务器非流动模型,在一个超级网。接下来,我们提出,在两种WAV2VEC 2.0自制学习和监督的ASR微调上进行超网训练不仅可以基本上改善先前工作中所示的大型非流式模型,还可以改善紧凑的稀疏流流媒体流模型。
translated by 谷歌翻译
有效的深层神经网络(DNN)模型配备了紧凑的操作员(例如,深度卷积)在降低DNN的理论复杂性(例如,权重/操作总数)的同时,在保持体面的模型准确性的同时,显示出很大的潜力。但是,由于其通常采用的紧凑型操作员的低硬件利用率,现有的有效DNN仍然受到履行其提高现实硬件效率的承诺的限制。在这项工作中,我们为开发真实硬件有效的DNN开辟了新的压缩范式,从而提高了硬件效率,同时保持模型的准确性。有趣的是,我们观察到,尽管某些DNN层的激活功能有助于DNNS的训练优化和可实现的准确性,但在训练后可以正确删除它们,而不会损害模型的准确性。受到这一观察的启发,我们提出了一个称为DepthShrinker的框架,该框架通过缩小现有有效DNN的基本构建块来开发硬件友好的紧凑型网络,这些构件具有不规则的计算模式,并具有大量改进的硬件利用率,从而将硬件的计算模式缩小到密集的情况下。令人兴奋的是,我们的DepthShrinker框架提供了硬件友好的紧凑网络,既优于最先进的有效DNN和压缩技术方法元元素。我们的代码可在以下网址找到:https://github.com/facebookresearch/depthshrinker。
translated by 谷歌翻译
我们介绍了一个开源深学习库的Pytorchvideo,为各种视频理解任务提供了丰富的模块化,高效,可重复的组件,包括分类,检测,自我监督学习和低级处理。该库涵盖了一系列视频理解工具,包括复制最先进的性能的多模式数据加载,转换和模型。Pytorchvideo进一步支持硬件加速,从而实现移动设备上的实时推断。图书馆基于Pytorch,可以由任何培训框架使用;例如,pytorchlightning,pyslowfast或优雅的愿景。pytorchvideo在https://pytorchvideo.org/提供
translated by 谷歌翻译
低秩张量压缩已被提议作为一个有前途的方法,以减少他们的边缘设备部署神经网络的存储和计算需求。张量压缩减少的通过假设网络的权重来表示神经网络权重所需的参数的数目具有一个粗糙的高级结构。此粗结构假设已经被应用到压缩大神经网络如VGG和RESNET。计算机视觉任务然而现代国家的最先进的神经网络(即MobileNet,EfficientNet)已经通过在深度方向上可分离卷积假定粗因式分解结构,使得纯张量分解较少有吸引力的方法。我们建议低张量分解稀疏修剪,以充分利用粗粒和细粒结构的压缩相结合。我们在压缩SOTA架构的权重(MobileNetv3,EfficientNet,视觉变压器),并比较这种方法来疏剪枝,独自张量分解。
translated by 谷歌翻译
Masked image modeling (MIM) performs strongly in pre-training large vision Transformers (ViTs). However, small models that are critical for real-world applications cannot or only marginally benefit from this pre-training approach. In this paper, we explore distillation techniques to transfer the success of large MIM-based pre-trained models to smaller ones. We systematically study different options in the distillation framework, including distilling targets, losses, input, network regularization, sequential distillation, etc, revealing that: 1) Distilling token relations is more effective than CLS token- and feature-based distillation; 2) An intermediate layer of the teacher network as target perform better than that using the last layer when the depth of the student mismatches that of the teacher; 3) Weak regularization is preferred; etc. With these findings, we achieve significant fine-tuning accuracy improvements over the scratch MIM pre-training on ImageNet-1K classification, using all the ViT-Tiny, ViT-Small, and ViT-base models, with +4.2%/+2.4%/+1.4% gains, respectively. Our TinyMIM model of base size achieves 52.2 mIoU in AE20K semantic segmentation, which is +4.1 higher than the MAE baseline. Our TinyMIM model of tiny size achieves 79.6% top-1 accuracy on ImageNet-1K image classification, which sets a new record for small vision models of the same size and computation budget. This strong performance suggests an alternative way for developing small vision Transformer models, that is, by exploring better training methods rather than introducing inductive biases into architectures as in most previous works. Code is available at https://github.com/OliverRensu/TinyMIM.
translated by 谷歌翻译
In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
translated by 谷歌翻译